GraphPad Prism 9 统计教程：置信区间详解_Graphpad Prism_统计与绘图_实用技巧

“你有多确定？” — 这是分析数据时的一个基本问题，可以使用置信区间来回答这个问题。

第一部分

关键概念：平均值置信区间

平均值的置信区间是多少？

平均值的置信区间（CI）可以告诉你确定平均值的精确程度。

例如，你对小样本（N = 5）的重量进行测量，然后计算平均值。该平均值不太可能等于群体平均值。可能差异的程度取决于样本量和样本变异性。

如果你的样本很小且可变，则样本平均值很可能与群体平均值相差甚远。如果你的样本很大且几乎不分散，则样本平均值可能与群体平均值非常接近。统计计算可以结合样本量与变异性（标准偏差）来生成群体平均值的置信区间。顾名思义，置信区间是一系列值。

在解释平均值的置信区间时做了哪些假设？

如需解读平均值的置信区间，必须假设所有值均从群体中独立、随机抽样得到，且该群体值的分布服从高斯分布。如果你接受这些假设，则95%置信区间有95%的几率包含真实的群体平均值。也就是说，如果基于许多样本生成许多95%置信区间，你可以在预期95%置信区间在95%的情况下包含真实的群体平均值，而在其他5%的情况下不包含群体平均值。

平均值的置信区间一定会包括真实平均值

下图中的靠上示图中显示了10组数据（N = 5），随机抽样取自高斯分布，平均值为100，标准偏差为35。下部视图中显示了每个样本平均值的95%置信区间。

由于这些数据均为模拟数据，我们知道真实群体平均值（100）的确切值，因此可以询问每个置信区间是否包括真实群体平均值。在上图中从右数第二个数据集中，95%置信区间不包括100的真实平均值（虚线）。

在分析数据时，你不知道群体平均值，因此不能知道某个特定置信区间是否包含真实的群体平均值。你所知道的是，置信区间有95%的几率包括群体平均值，有5%的几率不包括群体平均值。

平均值的置信区间的计算方式？

平均值的置信区间以样本平均值为中心，并在两个方向上对称延伸。该距离等于平均时间SE乘以t分布的常数。该常数的值仅取决于样本量（N），如下所示，

上图中显示的样本有五个值。因此，其中一个样本的置信下限计算为平均值减去2.776乘以SEM，置信上限计算为平均值加上2.776乘以SEM。上表的最后一行示出了用于在Excel中计算乘数的公式。较新的语法 = T.INV.2T（0.005，N - 1）。

一种常见的经验法则是，95%置信区间从加上或减去两个SEM的平均值计算得到。

对于大样本，该法则非常准确。对于小样本，与按经验法则得出的置信区间相比，平均值的置信区间要宽得多。

解读平均值的置信区间

置信区间无法量化可变性

95%置信区间是一个数值范围，你可以95%确定包含群体的真实平均值。这与包含95%数值的范围不同。以下图表突出了这一区别。

该图表显示了三个样本（大小不同），都是从同一群体中抽样。

左侧是小样本，95%置信区间与数据范围相似。但是右侧的大样本中只有一小部分值在置信区间范围内。这很有道理。95%置信区间定义了一个值范围，你可以95%确定包含群体平均值。大样本的平均值比小样本的平均值具有更高的精度，因此从大样本计算出的置信区间非常窄。

注意！请勿将置信区间误解为包含95％值的范围

95%的几率是什么？

准确来说，计算置信区间有95%的几率具有真实的群体平均值。群体平均值有95%的几率在区间范围内的这一说法并不太准确。

有什么不同？

群体平均值只有一个值。但你并不知道该值是什么（除非在做模拟），但它只有一个值。即使重复进行实验，该值也不会改变。从严格意义上来说，询问群体平均值在某个范围内的概率不一定是正确的。

相比之下，计算的置信区间取决于偶然收集的数据。如果重复进行实验，则得出的置信区间几乎肯定不同。因此，可以询问区间包含群体平均值的概率。

关于群体平均值在区间内的概率这个问题其实没有意义。概率要么在区间范围内，要么不在。并不存在几率的问题。可以这样说，假如多次进行此类实验，置信区间不一定都一样，你会期望95%的置信区间包含群体平均值，5%的置信区间不包含群体平均值，你无法得知某个特定实验的区间是否包含群体平均值。

95%并无特别之处

虽然置信区间通常用95%的置信度来表示，但这只是一个惯例。可以针对任何想要的置信度计算置信区间。

人们经常惊讶于99%的置信区间比95%的区间更宽，而90%的区间则更窄。但这完全是合理的。如果区间包含真实参数的置信度越高，则区间将会更宽。如果你想100.000%确定一个区间包含真正群体，则该区间必须包含所有可能的值，因此需要非常宽。如果你只有50%的把握确定一个区间包含真正的值，则该区间可能会更窄。

第二部分

上面介绍了关键概念平均值置信区间和平均值的置信区间的解读，这部分将主要讲解其他置信区间、单侧置信区间、以及关于置信区间的分析建议。

其他置信区间

置信区间的概念是通用概念。在分析数据时，可为我们所计算的几乎所有值计算95%CI。前面的文章中，我们已讨论过平均值的标准偏差和标准误差：

回顾：GraphPad Prism 统计教程 | 标准差 vs 平均值的标准误差

Prism计算的其他置信区间包括：

两组平均值之间的差异
比例
两种比例的比率
线性回归的最佳拟合斜率
通过非线性回归确定的EC50的最佳拟合值
两组中位生存时间的比率
一组值的中值

该概念对于所有这些情况均一样。你从小样本中收集数据并分析数据。对于该样本，你计算的值均100%正确，但会受到随机散布影响。置信区间告诉您确定该值的精确程度。给定某些假设（我们随本书后面的每项分析中列出），你可确定95% CI包含真实（总体）值。

统计学的基本概念是分析数据样本，并对总体（从中抽取数据）进行定量推断。置信区间是完成这项操作最简单的方式。

单侧置信区间

通常，置信区间表示为双侧范围。例如，你可以使用95%置信度来说明一项参数的真实值（平均值、EC50、相对风险、差值等）位于两个数值的范围内。GraphPad将该区间称为“双侧”，因为该区间同时受置信下限和上限的限制。

在某些情况下，只在一个方向上表达置信区间更有意义 - 置信下限或上限。这最好通过以下一个示例予以说明。

已经开展一项近期研究，以评价一种新药根除幽门螺杆菌感染的有效性，并确定其是否低于标准药物。（该示例改编自参考文献1*的示例）。新药的根除率为86.5%（109/126），而接受标准治疗的患者为85.3%（110/129）。

在本研究中，两种治疗的根除率差值为1.2%。关于新药，95%置信区间从比标准药物差7.3%的根除率下限延伸到比标准药物优9.7%的根除率上限。

如果我们假设本研究的受试者代表更大群体，则意味着该数值范围有95%的概率会包括两种药物根除率的真正差值。将剩余的5%分开，新治疗将根除率提高9.7%以上的概率为2.5%，新治疗将根除率降低7.3%以上的概率为2.5%。

在此情况下，我们的目标是证明新药并不比旧药差。因此，我们可以将95%置信度与2.5%上限相结合，并假设新药的根除率比标准药物的根除率差7.3%以下的概率为97.5%。

然而，传统的说法是置信区间为95%，而非97.5%。我们可以很简单地设立一个单侧95%置信区间。为此，我们只需计算90%（而非95%）双侧置信区间。

根除率差值的90% CI从 - 5.9%延伸到8.4%。由于我们不太确定其是否包含真实数值，因此不会像95%区间一样延伸。我们可以重申95%置信区间大于 - 5.9%。因此，我们有95%的信心认为新药的根除率并不比标准药物差5.9%。

在检验非劣性的该示例中，只将单侧置信区间表示为下限才有意义。在其他情况下，将单侧置信限仅作为上限才有意义。例如在毒理学中，您可能只关注置信上限。

GraphPad Prism不直接计算单侧置信区间。但是，如该示例所示，由你自己创建单侧区间非常简单。只需让Prism为您关注的数值创建一个90%置信区间。如果你只关注下限，则假设你95%确定真实数值高于（90%）下限。如果你只关注上限，则假设你95%确定真实数值低于（90%）上限。

参考文献：*1. S. J. Pocock，“非劣效性试验的利弊”，《基础与临床药理学》，17：483-490（2003）。

建议

许多统计分析会生成P值与置信区间。许多科学家报告了P值，却忽略了置信区间。

GraphPad认为这是错误的。

关于P值的解读通常比较棘手，相比之下，解读置信区间相当简单。你收集一些数据，做一些计算来量化差异（或比率，或最适合的值...），并报告该值以及置信区间，以显示该值的精确程度。

回顾：GraphPad Prism 统计指南 | 什么是P值？

置信区间和P值的基本理论相同。因此，如果两者均解读正确，则结论相同。但这属于不确定性很高的“假设”，GraphPad同意JM Hoenig和DM Heisey在《美国统计学家》（55：1-6，2001）发表的观点：“不完全理解的置信区间比错误理解的P值和假设检验更有用，也更安全。”

第三部分

第三部分“置信区间”主要关于置信区间、预测区间和容许区间的比较，以及标准偏差的置信区间。

比较置信区间、预测区间和容许区间

当你将参数拟合到模型时，精度或精确度可表示为置信区间、预测区间或容许区间。这三者截然不同。Prism仅报告置信区间。

下面内容解释了将平均值拟合到数据样本的简单情况下的三个不同区间（假设从高斯分布中抽样）。相同的想法可应用于由回归确定的任何最佳拟合参数的区间。

置信区间

置信区间，表明了所确定的平均值程度如何。假设数据的确从高斯分布中随机抽样得到。如果你多次这样做，并计算每个样本中平均值的置信区间，那么你会预期95%的置信区间包括群体平均值的真实值。重点：置信区间可以告诉你真实群体参数的可能位置。

预测区间

基于预测区间，可以预计在何处看到下一个抽样数据点的位置。假设数据的确从高斯分布中随机抽样得到。收集数据样本并计算预测区间。然后从群体中再抽取一个值。如果你多次这样做，你预计下一个值位于95%样本的预测区间内。重点：预测区间可以告诉你值的分布，而非确定群体平均值的不确定性。

预测区间必须考虑知道群体平均值的不确定性以及数据离散性。因此预测区间始终比置信区间更宽。

（在继续讨论容许区间之前，让我们定义在定义预测区间时使用的“预计”一词。意思是，你有50%的机会在95%以上的样本中看到区间内的值，以及有50%的机会在少于95%的样本中看到区间内的值。）

容许区间

如果你想要95%确定该区间包含95%的值，应该怎么做？或者90%确定该区间包含99%的值？如需计算或理解容许区间，必须指定两个不同的百分比。一个表示你想确定的程度，另一个表示区间将包含的值的分数。如果你将第一个值（确定的程度）设置为50%，则容许区间与预测区间相同。如果你将其设置为一个较高值（例如，90%或99%），则容许区间会更宽。

标准偏差的置信区间

几乎可以为根据数据样本计算的任何值计算置信区间，包括SD（标准偏差）。

回顾：GraphPad Prism 统计教程 | 标准差

单样本SD与群体SD不同

置信区间通常用于计算平均值。但置信区间的概念非常普遍，你可以将任何计算值的精度表示为95%置信区间（CI）。另一示例是回归最佳拟合值的置信区间（例如，斜率的置信区间）。

置信区间不仅仅用于计算平均值

SD的95% CI

样本SD只是你根据数据样本计算的一个值。虽然并不经常这么做，但其确实有可能计算一个SD的CI。Prism不进行此计算，可以试试免费的GraphPad QuickCalc（免费的GraphPad在线计算器）。

免费的GraphPad在线计算器链接↓：

https://www.graphpad.com/quickcalcs/CISD1.cfm

*复制粘贴上面的链接用浏览器打开即可

SD CI的解释非常简单。如果你假设数据是从高斯分布中随机独立抽样，则有95%的概率确定CI包含真正的群体SD。

SD的CI有多宽？当然，答案取决于样本量（n）。对于小样本，区间相当宽，如下表所示：

示例

- 数据：23、31、25、30、27

- 平均值：27.2

- SD：3.35

根据五个值计算出的样本SD为3.35。但值抽样群体的真正SD可能大不相同。从表的n = 5行来看，95%置信区间从0.60*SD扩展到2.87*SD。因此，95%置信区间的范围为0.60*3.35到2.87*3.35，2.01到9.62。当你仅根据五个值计算SD时，SD的95%置信上限几乎是下限的五倍。

大多数人对小样本的SD定义如此之差的事实感到惊讶。随机抽样会对小数据集产生巨大影响，从而导致计算出的SD与真正的全体SD相差甚远。

请注意，置信区间并非围绕计算的SD对称分布。为什么？由于SD始终是正数，因此置信下限不能小于零。这意味着上置信区间通常在样本SD上方延伸，而下置信区间在样本SD下方延伸。使用小样本时，这种不对称性非常明显。